<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    通用網絡爬蟲的實現原理是什么


    發現錯別字 11個月前 提問
    回答
    1
    瀏覽
    375
    請勿發布不友善或者負能量的內容。與人為善,比聰明更重要!
    回答數量: 1
    風險管理(專業級)RM/PL 高級信息系統項目管理師

    通用網絡爬蟲的實現原理:

    1. 獲取初始的URL。初始的URL地址可以人為地指定,也可以由用戶指定的某個或某幾個初始爬取網頁決定。

    2. 根據初始的URL爬取頁面并獲得新的URL。獲得初始的URL地址之后,先爬取當前URL地址中的網頁信息,然后解析網頁信息內容,將網頁存儲到原始數據庫中,并且在當前獲得的網頁信息里發現新的URL地址,存放于一個URL隊列里面。

    3. 將新的URL放到URL隊列中,獲取下一個新的URL地址之后,會將新的URL地址放到URL隊列中。

    4. 從URL隊列中讀取新的URL,從而獲得新的網頁信息,同時在新網頁中獲取新URL,并重復上述的爬取過程。

    5. 滿足爬蟲系統設置的停止條件時,停止爬取。在編寫爬蟲的時候,一般會設置相應的停止條件,爬蟲則會在停止條件滿足時停止爬取。如果沒有設置停止條件,爬蟲就會一直爬取下去,一直到無法獲取新的URL地址為止。

    通用網絡爬蟲的特點有:

    • 由于商業原因,引擎的算法是不會對外公布的。

    • 這類網絡爬蟲的爬取范圍和數量巨大,對于爬取速度和存儲空間要求較高,爬取頁面的順序要求相對較低。

    • 待刷新的頁面太多,通常采用并行工作方式,但需要較長時間才能刷新一次頁面。

    • 存在一定缺陷,通用網絡爬蟲適用于為搜索引擎搜索廣泛的需求。

    回答所涉及的環境:聯想天逸510S、Windows 10。

    11個月前 / 評論
    亚洲 欧美 自拍 唯美 另类